Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural: adaptando as métricas do Coh-Metrix para o Português
نویسندگان
چکیده
Este artigo apresenta o projeto de adaptação de métricas da ferramenta Coh-Metrix para o português do Brasil (Coh-Metrix-Port). Descreve as ferramentas de processamento de língua natural para o português que foram utilizadas, juntamente com as decisões tomadas para a criação da CohMetrix-Port. O artigo traz duas aplicações da ferramenta Coh-Metrix-Port: (i) a avaliação de textos jornalísticos e sua versão para crianças, mostrando as diferenças entre os textos supostamente complexos e textos simples, isto é, os textos reescritos; (ii) a criação de classificadores binários (com córpus de textos dedicados a adultos e crianças), analisando a influência do gênero no desempenho destes classificadores (gêneros jornalístico e de divulgação científica) e de textos de outras fontes. A precisão do melhor classificador treinado foi conseguida com a implementação de Support Vector Machines (SMO) do WEKA e foi de 97%. Como as métricas desta ferramenta ajudam a discriminar com boa precisão textos dedicados a adultos e a crianças, acreditamos que elas possam também ajudar a avaliar se textos disponíveis na Web são simples o suficiente para serem inteligíveis por analfabetos funcionais e pessoas com outras deficiências cognitivas, como afasia e dislexia, e também para crianças e adultos em fase de letramento e assim permitir o acesso dos textos da Web para uma gama maior de usuários.
منابع مشابه
Análise Morfossintáctica para Português Europeu e Galego: Problemas, Soluções e Avaliação
As diferentes tarefas de análise morfossintáctica têm muita importância para posteriores níveis do processamento da linguagem natural. Por isso, estes processos devem ser realizados com ferramentas que garantam bons desempenhos em relação à cobertura, precisão e robustez na análise. FreeLing é uma suite com licença GPL desenvolvida pelo Grupo TALP da Universitat Politècnica de Catalunya. Este s...
متن کاملIdentificação de Autoria de Textos através do uso de Classes Linguísticas da Língua Portuguesa (Authorship Identification Using Linguistic Classes for Portuguese) [in Portuguese]
The computational solution uses to solve problems related to the authorship identification and verification has grown progressively in areas such as computing, linguistics and law. This article aims to provide a method for the identification of authors ot text, based on a conjunct of attributes stilometry, using on the characteristics of Portuguese language. Resumo. A utilização do meio computa...
متن کاملCaracterização e Processamento de Expressões Temporais em Português
A dimensão temporal é um elemento estruturante fundamental para a informação veiculada em textos e constitui um desafio para o processamento de ĺıngua natural, sendo igualmente importante para muitas aplicações do processamento das ĺınguas. Este artigo constitui mais um passo para o ambicioso objectivo de tratamento da informação temporal. Para tal, apresenta-se uma proposta de classificação da...
متن کاملVencendo a escassez de recursos computacionais. Carvalho: Tradutor Automático Estatístico Inglês-Galego a partir do corpus paralelo Europarl Inglês-Português
À hora de desenvolver muitas ferramentas estat́ısticas de Processamento da Linguagem Natural tornase essencial a utilização de grandes quantidades de dados. Para salvar a limitação da escassez de recursos computacionais para ĺınguas minorizadas como o galego é necessário desenhar novas estratégias. No caso do galego, importantes romanistas têm teorizado que galego e português são variantes do po...
متن کاملExtração Automática de Termos Candidatos às Ontologias: um Estudo de Caso no Domínio da Hemoterapia
This paper describes a case study conducted within the domain of blood transfusion aiming at non-exhaustively extraction of candidate terms for an ontology of human blood. The process involved both the construction of a corpus and its automatic processing, and the retrieval of specialized terms. As our main result, we have obtained candidate medical terms to be used in a ontology of blood trans...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Linguamática
دوره 2 شماره
صفحات -
تاریخ انتشار 2010